#Bibliotheken importieren

library(tidymodels)
Warning: Paket ‘tidymodels’ wurde unter R Version 4.1.3 erstellt
-- Attaching packages ------------------------------------------------------------------------------------------------- tidymodels 0.2.0 --
v broom        0.8.0     v recipes      0.2.0
v dials        0.1.1     v rsample      0.1.1
v dplyr        1.0.8     v tibble       3.1.6
v ggplot2      3.3.6     v tidyr        1.2.0
v infer        1.0.0     v tune         0.2.0
v modeldata    0.1.1     v workflows    0.2.6
v parsnip      0.2.1     v workflowsets 0.2.1
v purrr        0.3.4     v yardstick    0.0.9
Warning: Paket ‘broom’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘dials’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘scales’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘ggplot2’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘infer’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘modeldata’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘parsnip’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘recipes’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘rsample’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘tune’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘workflows’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘workflowsets’ wurde unter R Version 4.1.3 erstellt
Warning: Paket ‘yardstick’ wurde unter R Version 4.1.3 erstellt
-- Conflicts ---------------------------------------------------------------------------------------------------- tidymodels_conflicts() --
x purrr::discard() masks scales::discard()
x dplyr::filter()  masks stats::filter()
x dplyr::lag()     masks stats::lag()
x recipes::step()  masks stats::step()
* Dig deeper into tidy modeling with R at https://www.tmwr.org
library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
-- Attaching packages -------------------------------------------------------------------------------------------------- tidyverse 1.3.1 --
v readr   2.1.2     v forcats 0.5.1
v stringr 1.4.0     
-- Conflicts ----------------------------------------------------------------------------------------------------- tidyverse_conflicts() --
x readr::col_factor() masks scales::col_factor()
x purrr::discard()    masks scales::discard()
x dplyr::filter()     masks stats::filter()
x stringr::fixed()    masks recipes::fixed()
x dplyr::lag()        masks stats::lag()
x readr::spec()       masks yardstick::spec()
library(plotly)
Warning: Paket ‘plotly’ wurde unter R Version 4.1.3 erstellt
Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     
Registered S3 method overwritten by 'htmlwidgets':
  method           from         
  print.htmlwidget tools:rstudio

Attache Paket: ‘plotly’

Das folgende Objekt ist maskiert ‘package:ggplot2’:

    last_plot

Das folgende Objekt ist maskiert ‘package:stats’:

    filter

Das folgende Objekt ist maskiert ‘package:graphics’:

    layout
library(esquisse)
Warning: Paket ‘esquisse’ wurde unter R Version 4.1.3 erstellt
library(highcharter)
Warning: Paket ‘highcharter’ wurde unter R Version 4.1.3 erstellt
Registered S3 method overwritten by 'quantmod':
  method            from
  as.zoo.data.frame zoo 
library(formattable)
Warning: Paket ‘formattable’ wurde unter R Version 4.1.3 erstellt

Attache Paket: ‘formattable’

Das folgende Objekt ist maskiert ‘package:plotly’:

    style

Die folgenden Objekte sind maskiert von ‘package:scales’:

    comma, percent, scientific
library(rpart)

Attache Paket: ‘rpart’

Das folgende Objekt ist maskiert ‘package:dials’:

    prune
library(rpart.plot)
Warning: Paket ‘rpart.plot’ wurde unter R Version 4.1.3 erstellt
#Datensatz einlesen
df_original <- read.csv("https://swissvotes.ch/page/dataset/swissvotes_dataset.csv", header=TRUE, sep=";", na = c("NA", "."))
```r
parteien <- c(\.svp\, \.fdp\, \.sps\, \.cvp\, \.gps\, \.mitte\)

#Daten selektieren
df <- df %>%
  select(datum, titel_off_d, anzahl, rechtsform, d1e1:br.pos, bv.pos:srnein, unter.quorum, unter_g, unter_u, ends_with(parteien), ja.lager:neutral.summe, volk:ktjaproz) %>%
  mutate(datum = as.Date(datum, \%d.%m.%Y\)) %>% 
  mutate(p.cvp = ifelse(p.cvp == 9999, p.mitte, p.cvp))%>% #CVP wurde zu Mitte -> fehlende Daten cvp durch Daten der Mitte ergänzt
  mutate(w.cvp = ifelse(w.cvp == 0, w.mitte, w.cvp))%>%  #CVP wurde zu Mitte -> fehlende Daten cvp durch Daten der Mitte ergänzt
  rename(p.cvp_mitte = p.cvp, w.cvp_mitte = w.cvp)  %>% 
  select(-c(p.mitte, w.mitte))

#Themen vom Mai 
mai <- df %>%
  filter(datum > as.Date(\01.05.2022\, \%d.%m.%Y\ )) %>%
  select(d1e1:d3e3)

<!-- rnb-source-end -->

<!-- rnb-chunk-end -->


<!-- rnb-text-begin -->




<!-- rnb-text-end -->


<!-- rnb-chunk-begin -->


<!-- rnb-source-begin eyJkYXRhIjoiYGBgclxuI1ZhcmlhYmxlbiBkZWZpbmllcmVuIHVtIG5hY2hoZXIgbWVocmVyZSBTcGFsdGVuIGdsZWljaHplaXRpZyB6dSBtdXRpZXJlblxucG9zaXRpb25lbiAgPC0gZGYgJT4lXG4gIHNlbGVjdChlbmRzX3dpdGgoXCIucG9zXCIpfHN0YXJ0c193aXRoKFwicC5cIil8c3RhcnRzX3dpdGgoXCJwZGV2XCIpKSBcblxuaGF1cHR0aGVtYSA8LSBkZiAlPiVcbiAgc2VsZWN0KGQxZTEsIGQyZTEgLGQzZTEpXG5cbnVudGVydGhlbWEgPC0gZGYgJT4lXG4gIHNlbGVjdChkMWUyLCBkMmUyICxkM2UyKVxuXG5kYXRlbiA8LSBkZiAlPiVcbiAgc2VsZWN0KGRhdHVtLCBzdGFydHNfd2l0aChcImRhdC5cIikpXG5cbnJlc3VsdGF0ZSA8LSBkZiAlPiVcbiAgc2VsZWN0KGVuZHNfd2l0aChcImFubmFobWVcIil8IHZvbGsgfCBzdGFuZClcblxuI2JlcmVpbmlndGVuIERhdGVuc2F0eiBlcnN0ZWxsZW4gKFZhcmlhYmxlbiBiZW5lbm5lbiwgU3BhbHRlbiB1bWJlbmVubmVuKVxuZGZfY2xlYW4gPC0gZGYgJT4lXG4gIG11dGF0ZShyZWNodHNmb3JtID0gZmFjdG9yKGNhc2Vfd2hlbihcbiAgICByZWNodHNmb3JtID09IDEgfiBcIk9ibGlnYXRvcmlzY2hlcyBSZWZlcmVuZHVtXCIsICNPUlxuICAgIHJlY2h0c2Zvcm0gPT0gMiB+IFwiRmFrdWx0YXRpdmVzIFJlZmVyZW5kdW1cIiwgI0ZSXG4gICAgcmVjaHRzZm9ybSA9PSAzIH4gXCJWb2xrc2luaXRpYXRpdmVcIiwgI1ZJXG4gICAgcmVjaHRzZm9ybSA9PSA0IH4gXCJHZWdlbmVudHd1cmYgenUgVm9sa3Npbml0aWF0aXZlXCIsICNHVlxuICAgIHJlY2h0c2Zvcm0gPT0gNSB+IFwiU3RpY2hmcmFnZVwiKSkpJT4lICAjU1xuICBtdXRhdGUoYWNyb3NzKG5hbWVzKHBvc2l0aW9uZW4pLCBcbiAgICAgICAgICAgfiBmYWN0b3IoY2FzZV93aGVuKC4gPT0gMSB+IFwiQmVmw7xyd29ydGVuZFwiLFxuICAgIC49PSAyIH5cIkFibGVobmVuZFwiLFxuICAgIC49PSAzIH5cIktlaW5lXCIsXG4gICAgLj09IDQgflwiTGVlcmUgQWJnYWJlXCIsXG4gICAgLj09IDUgflwiU3RpbW1mcmVpZ2FiZVwiLFxuICAgIC49PSA4IH5cIlZvcnp1ZyBmw7xyIGRlbiBHZWdlbmVudHd1cmZcIixcbiAgICAuPT0gOSB+XCJWb3J6dWcgZsO8ciBWb2xrc2luaXRpYXRpdmVcIixcbiAgICAuID09IDY2IH5cImtlaW5lXCIsXG4gICAgLiA9PSA5OTk5IH5cIlBhcnRlaSBleC4gbmljaHRcIiwpKSkpICU+JVxuICBtdXRhdGUoYWNyb3NzKG5hbWVzKHJlc3VsdGF0ZSksIFxuICAgICAgICAgICAgICAgIH4gZmFjdG9yKGNhc2Vfd2hlbiguID09IDAgflwiYWJnZWxlaG50XCIsIFxuICAgICAgICAgICAgICAgIC49PSAxIH4gXCJhbmdlbm9tbWVuXCIsIFxuICAgICAgICAgICAgICAgIC49PSAzIH4gXCJTdMOkbmRlbWVociBuaWNodCBuw7Z0aWdcIiwgXG4gICAgICAgICAgICAgICAgLj09IDggfiBcIkdlZ2VuZW50d3VyZiBhbmdlbm9tbWVuXCIsIFxuICAgICAgICAgICAgICAgIC49PSA5IH4gXCJWb2xrc2luaXRpYXRpdmUgYW5nZW5vbW1lblwiICkpKSkgXG5cblxuXG5kYXRhX21haSA8LSBkZl9jbGVhbiAlPiVcbiAgZmlsdGVyKGRhdHVtID4gYXMuRGF0ZShcIjAxLjA1LjIwMjJcIiwgXCIlZC4lbS4lWVwiICkpIFxuXG5gYGAifQ== -->

```r
#Variablen definieren um nachher mehrere Spalten gleichzeitig zu mutieren
positionen  <- df %>%
  select(ends_with(".pos")|starts_with("p.")|starts_with("pdev")) 

hauptthema <- df %>%
  select(d1e1, d2e1 ,d3e1)

unterthema <- df %>%
  select(d1e2, d2e2 ,d3e2)

daten <- df %>%
  select(datum, starts_with("dat."))

resultate <- df %>%
  select(ends_with("annahme")| volk | stand)

#bereinigten Datensatz erstellen (Variablen benennen, Spalten umbenennen)
df_clean <- df %>%
  mutate(rechtsform = factor(case_when(
    rechtsform == 1 ~ "Obligatorisches Referendum", #OR
    rechtsform == 2 ~ "Fakultatives Referendum", #FR
    rechtsform == 3 ~ "Volksinitiative", #VI
    rechtsform == 4 ~ "Gegenentwurf zu Volksinitiative", #GV
    rechtsform == 5 ~ "Stichfrage")))%>%  #S
  mutate(across(names(positionen), 
           ~ factor(case_when(. == 1 ~ "Befürwortend",
    .== 2 ~"Ablehnend",
    .== 3 ~"Keine",
    .== 4 ~"Leere Abgabe",
    .== 5 ~"Stimmfreigabe",
    .== 8 ~"Vorzug für den Gegenentwurf",
    .== 9 ~"Vorzug für Volksinitiative",
    . == 66 ~"keine",
    . == 9999 ~"Partei ex. nicht",)))) %>%
  mutate(across(names(resultate), 
                ~ factor(case_when(. == 0 ~"abgelehnt", 
                .== 1 ~ "angenommen", 
                .== 3 ~ "Ständemehr nicht nötig", 
                .== 8 ~ "Gegenentwurf angenommen", 
                .== 9 ~ "Volksinitiative angenommen" )))) 



data_mai <- df_clean %>%
  filter(datum > as.Date("01.05.2022", "%d.%m.%Y" )) 
n_FR_angenommen / n_angenommen
       n 
0.368254 

#Visualisierung mittels Boxplot
Unterschriften <- df_clean %>% filter(rechtsform == "Fakultatives Referendum", !is.na(annahme)) %>% ggplot(aes(annahme, unter_g)) + geom_boxplot()

ggplotly(Unterschriften)


jalager <- df_clean %>% filter( !is.na(annahme)) %>% ggplot(aes(annahme, ja.lager)) + geom_boxplot()

ggplotly(jalager)
Warning: Removed 34 rows containing non-finite values (stat_boxplot).
ggplot(df_clean, aes(annahme, ja.lager)) + geom_jitter()
Warning: Removed 34 rows containing missing values (geom_point).

vorhersagen <- vorhersagen %>% 
  select(-c(nr.pos, sr.pos, bv.pos)) %>% 
  rename(Titel = titel_kurz_d)
Error in `select()`:
! Can't subset columns that don't exist.
x Column `nr.pos` doesn't exist.
Backtrace:
  1. vorhersagen %>% select(-c(nr.pos, sr.pos, bv.pos)) %>% ...
  4. dplyr:::select.data.frame(., -c(nr.pos, sr.pos, bv.pos))
  7. tidyselect::eval_select(expr(c(...)), .data)
  8. tidyselect:::eval_select_impl(...)
 17. tidyselect:::vars_select_eval(...)
     ...
 27. tidyselect:::chr_as_locations(x, vars, call = call)
 28. vctrs::vec_as_location(x, n = length(vars), names = vars)
 29. vctrs `<fn>`()
 30. vctrs:::stop_subscript_oob(...)
 31. vctrs:::stop_subscript(...)
#Entscheidungsbaum nur mit rpart (da Baum sonst nicht geplottet werden konnte)
model <- rpart(annahme ~ ., data = data_baum, method = 'class',control=rpart.control(minsplit = 12, minbucket = 10, cp=0.009))

predict(model, data_mai_baum, type = 'class')
         1          2          3 
 abgelehnt angenommen angenommen 
Levels: abgelehnt angenommen
predict(model, organspende, type = 'class')
         1 
angenommen 
Levels: abgelehnt angenommen
predict(model, Frontex, type = 'class')
         1 
angenommen 
Levels: abgelehnt angenommen
predict(model, filmgesetz, type = 'class')
        1 
abgelehnt 
Levels: abgelehnt angenommen
rpart.plot(model, extra = "auto")

NA
NA
NA
#Visualisierung Verteilung der Rechtsformen
ggplot(df_clean, aes(x = rechtsform)) +
  geom_bar()

NA
NA
mean(df_clean$rechtsform)
Warning in mean.default(df_clean$rechtsform) :
  Argument ist weder numerisch noch boolesch: gebe NA zurück
[1] NA
---
title: "Mini Challenge wer: Vorhersage Abstimmungen Mai"
output: html_notebook
---

```{r}
#Bibliotheken importieren

library(tidymodels)
library(tidyverse)
library(plotly)
library(esquisse)
library(highcharter)
library(formattable)
library(rpart)
library(rpart.plot)

```


```{r}
#Datensatz einlesen
df_original <- read.csv("https://swissvotes.ch/page/dataset/swissvotes_dataset.csv", header=TRUE, sep=";", na = c("NA", "."))
```

```{r}
parteien <- c(".svp", ".fdp", ".sps", ".cvp", ".gps", ".mitte")

#Daten selektieren
df <- df_original %>%
  select(datum, titel_kurz_d, anzahl, rechtsform, d1e1:br.pos, bv.pos:srnein, unter.quorum, unter_g, unter_u, ends_with(parteien), ja.lager:neutral.summe, volk:ktjaproz) %>%
  mutate(datum = as.Date(datum, "%d.%m.%Y")) %>% 
  mutate(p.cvp = ifelse(p.cvp == 9999, p.mitte, p.cvp))%>% #CVP wurde zu Mitte -> fehlende Daten cvp durch Daten der Mitte ergänzt
  mutate(w.cvp = ifelse(w.cvp == 0, w.mitte, w.cvp))%>%  #CVP wurde zu Mitte -> fehlende Daten cvp durch Daten der Mitte ergänzt
  rename(p.cvp_mitte = p.cvp, w.cvp_mitte = w.cvp)  %>% 
  select(-c(p.mitte, w.mitte))

#Themen vom Mai 
mai <- df %>%
  filter(datum > as.Date("01.05.2022", "%d.%m.%Y" )) %>%
  select(d1e1:d3e3)



```


```{r}
#Variablen definieren um nachher mehrere Spalten gleichzeitig zu mutieren
positionen  <- df %>%
  select(ends_with(".pos")|starts_with("p.")|starts_with("pdev")) 

hauptthema <- df %>%
  select(d1e1, d2e1 ,d3e1)

unterthema <- df %>%
  select(d1e2, d2e2 ,d3e2)

daten <- df %>%
  select(datum, starts_with("dat."))

resultate <- df %>%
  select(ends_with("annahme")| volk | stand)

#bereinigten Datensatz erstellen (Variablen benennen, Spalten umbenennen)
df_clean <- df %>%
  mutate(rechtsform = factor(case_when(
    rechtsform == 1 ~ "Obligatorisches Referendum", #OR
    rechtsform == 2 ~ "Fakultatives Referendum", #FR
    rechtsform == 3 ~ "Volksinitiative", #VI
    rechtsform == 4 ~ "Gegenentwurf zu Volksinitiative", #GV
    rechtsform == 5 ~ "Stichfrage")))%>%  #S
  mutate(across(names(positionen), 
           ~ factor(case_when(. == 1 ~ "Befürwortend",
    .== 2 ~"Ablehnend",
    .== 3 ~"Keine",
    .== 4 ~"Leere Abgabe",
    .== 5 ~"Stimmfreigabe",
    .== 8 ~"Vorzug für den Gegenentwurf",
    .== 9 ~"Vorzug für Volksinitiative",
    . == 66 ~"keine",
    . == 9999 ~"Partei ex. nicht",)))) %>%
  mutate(across(names(resultate), 
                ~ factor(case_when(. == 0 ~"abgelehnt", 
                .== 1 ~ "angenommen", 
                .== 3 ~ "Ständemehr nicht nötig", 
                .== 8 ~ "Gegenentwurf angenommen", 
                .== 9 ~ "Volksinitiative angenommen" )))) 



data_mai <- df_clean %>%
  filter(datum > as.Date("01.05.2022", "%d.%m.%Y" )) 

```


```{r}
#Variablen zählen / einzelne Wahrscheinlichkeiten berechnen
n_FR <- unlist(df_clean %>% filter(rechtsform == "Fakultatives Referendum") %>% count())
n_angenommen <-unlist(df_clean %>% filter(annahme == "angenommen") %>% count()) 
n_abgelehnt <- total_vorlagen - n_angenommen
n_FR_angenommen <-unlist(df_clean %>% filter(rechtsform == "Fakultatives Referendum", annahme == "angenommen") %>% count())
n_FR_abgelehnt <- n_FR - n_FR_angenommen
total_vorlagen <- unlist(df_clean %>% count()) 
(prob_FR_annahme <- percent(n_FR_angenommen / n_FR))
(prob_FR_annahme <- percent(n_FR_angenommen / total_vorlagen))
(prob_annahme <- n_angenommen / total_vorlagen)
(prob_FR <- n_FR / total_vorlagen)


#Kreuztabellen mit Anzahl
table(df_clean$rechtsform, df_clean$br.pos)


PE <- 116/315 #Anzahl FR angenommen / Anzahl angenommene
PEN <- 89/361 #Anzahl FR abgelehnt / anz. abgelehnt

PE / (PE+PEN)

n_FR_angenommen / n_angenommen

#Wahrscheinlichkeiten für die Positionen vom BR, abhängig von der Rechtsform
prob_br <- df_clean %>% 
  select(rechtsform, br.pos) %>% 
  count(rechtsform, br.pos) %>%
  mutate(prob = percent(n/sum(n)))
  #summarise(prob = count(.))
  
#wahrscheinlichkeit, dass volk ja sagt bei befürwortender Haltung des BR 
prob_volk_br <- df_clean %>% 
  filter(br.pos == "Befürwortend") %>% 
  select(br.pos, volk) %>% 
  #group_by(rechtsform, volk) %>% 
  count(br.pos, volk) %>% 
  mutate(prob = percent(n/sum(n)))


#Wahrscheinlichkeit, dass Vorlage Organspende angenommen wird (berücksichtige Faktoren: Rechtsform, BR Pos)


#wahrscheinlichkeit dass volk ja stimmt bei fak. referendum
prob_volk_FR <- df_clean %>% 
  filter(rechtsform == "Fakultatives Referendum") %>% 
  select(rechtsform, volk) %>% 
  #group_by(rechtsform, volk) %>% 
  count(rechtsform, volk) %>% 
  mutate(prob = percent(n/sum(n)))


#wahrscheinlichkeit, dass stände ja sagt bei befürwortender Haltung des BR 
prob_stand_br <- df_clean %>% 
  filter(br.pos == "Befürwortend") %>% 
  select(br.pos, stand) %>% 
  #group_by(rechtsform, volk) %>% 
  count(br.pos, stand) %>% 
  mutate(prob = percent(n/sum(n)))

#wahrscheinlichkeit, dass stände ja sagt bei Fak Ref (resultat -> Ständemehr nicht nötig)
prob_stand_FR <- df_clean %>% 
  filter(rechtsform == "Fakultatives Referendum") %>% 
  select(rechtsform, stand) %>% 
  #group_by(rechtsform, volk) %>% 
  count(rechtsform, stand) %>% 
  mutate(prob = percent(n/sum(n)))


#Wahrscheinlichkeiten, dass etwas angenommen wird wenn BR ja sagt / Form = Fak. Ref / Form = Volksinitiative
resultat_br <- df_clean %>% 
  filter(br.pos == "Befürwortend") %>% 
  select(br.pos, annahme) %>% 
  #group_by(rechtsform, volk) %>% 
  count(br.pos, annahme) %>% 
  mutate(prob = percent(n/sum(n)))


resultat_FR <- df_clean %>% 
  filter(rechtsform == "Fakultatives Referendum") %>% 
  select(rechtsform, annahme) %>% 
  #group_by(rechtsform, volk) %>% 
  count(rechtsform, annahme) %>% 
  mutate(prob = percent(n/sum(n)))


resultat_VI <- df_clean %>% 
  filter(rechtsform == "Volksinitiative") %>% 
  select(rechtsform, annahme) %>% 
  #group_by(rechtsform, volk) %>% 
  count(rechtsform, annahme) %>% 
  mutate(prob = percent(n/sum(n)))

bv_br <- df_clean %>% 
  select(titel_off_d, br.pos, bv.pos, nr.pos, sr.pos) %>% 
  mutate(konkordanz = ifelse(br.pos == br.pos & br.pos == nr.pos & nr.pos == sr.pos, "ja", "nein"))



ggplot(df_clean, aes(rechtsform, fill = annahme))+ geom_bar()
ggplot(df_clean, aes(bv.pos, fill = annahme))+ geom_bar()

```


```{r}

#Visualisierung Einfluss mittels Boxplot
Unterschriften <- df_clean %>% filter(rechtsform == "Fakultatives Referendum", !is.na(annahme)) %>% ggplot(aes(annahme, unter_g)) + geom_boxplot()
ggplotly(Unterschriften)


jalager <- df_clean %>% filter( !is.na(annahme)) %>% ggplot(aes(annahme, ja.lager)) + geom_boxplot()
ggplotly(jalager)


```


```{r} 
#Entscheidungsbaum
#reduzierter Datensatz:
data_baum <- df_clean %>% 
  select(rechtsform, br.pos, bv.pos, nr.pos, sr.pos, ja.lager, annahme) 

data_mai_baum <- data_mai %>% 
  select(titel_kurz_d,rechtsform, br.pos, bv.pos, nr.pos, sr.pos,  ja.lager, annahme)
  
organspende <- data_mai_baum %>%  filter(titel_kurz_d =="Widerspruchsregelung bei der Organspende")
Frontex <- data_mai_baum %>%  filter(titel_kurz_d == "Beteiligung an der europäischen Grenz- und Küstenwache Frontex") 
filmgesetz <- data_mai_baum %>%  filter(titel_kurz_d == "Änderung des Filmgesetzes") 


set.seed(1234)
data_split <- initial_split(data_baum, strata = annahme)

data_train <- training(data_split)
data_test <- testing(data_split)


#Prüfen, ob Wahrscheinlichkeiten etwa gleich verteilt sind
prop.table(table(data_train$annahme))
prop.table(table(data_test$annahme))
prop.table(table(data_baum$annahme))


#Parameter für Baum 
tree_specs <- decision_tree(min_n = 10,tree_depth = 5 ) %>% 
             set_engine("rpart") %>% 
              set_mode("classification")

#Modellvorhersage mit allen Variablen im Datenset
model_alles <- tree_specs %>% 
          fit(formula = annahme ~ ., data = data_train ) 


#Modellvorhersage nur mit rechtsform & Ja-Lager
model_br_jalager <- tree_specs %>% 
          fit(formula = annahme ~ rechtsform + ja.lager, data = data_train) 

#Modellvorhersage nur mit Rechtsform & Bundesratsempfehlung
model_br_rechtsform <- tree_specs %>% 
          fit(formula = annahme ~ rechtsform + br.pos, data = data_train) 

pred_alles <- predict(model_alles, new_data = data_mai_baum) %>% rename(alles = ".pred_class")
pred_BR_Rechtsform <- predict(model_br_rechtsform, new_data = data_mai_baum) %>%  rename(BR_Rechtsform = ".pred_class")
pred_BR_JaLager <- predict(model_br_jalager, new_data = data_mai_baum) %>%  rename(BR_JaLager = ".pred_class")

predict(model_alles, new_data = organspende)
predict(model_alles, new_data = Frontex)
predict(model_alles, new_data = filmgesetz)


vorhersagen <- cbind(data_mai_baum,pred_alles, pred_BR_Rechtsform, pred_BR_JaLager)  %>% 
  select(-c(nr.pos, sr.pos, bv.pos)) %>% 
  rename(Titel = titel_kurz_d)


```


```{r} 
#Entscheidungsbaum nur mit rpart (da Baum sonst nicht geplottet werden konnte)
model <- rpart(annahme ~ ., data = data_baum, method = 'class',control=rpart.control(minsplit = 12, minbucket = 10, cp=0.009))

#Vorhersagen, wobei das Modell wieder alle Variablen berücksichtigt
predict(model, data_mai_baum, type = 'class')
predict(model, organspende, type = 'class')
predict(model, Frontex, type = 'class')
predict(model, filmgesetz, type = 'class')
rpart.plot(model, extra = "auto")



```




```{r}
#Visualisierung Verteilung der Rechtsformen
ggplot(df_clean, aes(x = rechtsform)) +
  geom_bar()


```


```{r}
#Korrelation berechnen

cor(data_wer$ja.lager, data_wer$annahme, use = "complete.obs")

library(rcompanion)

data <- table(df_clean$rechtsform, df_clean$br.pos)
data2<- table(df_clean$ja.lager, df_clean$rechtsform)

data2


#calculate Cramer's V
cramerV(data)
cramerV(data2)

```


